Home » Lumea digitală » Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

Generatoarele de text plagiază într-un mod ce depășește simplul „Copy & Paste”

Publicat: 21.02.2023

Studenții ar trebui să se gândească de două ori înainte de a folosi ChatGPT pentru a-și realiza proiectele. Generatoarele de text plagiază conținutul în mai multe moduri, potrivit unei echipe de cercetare conduse de Penn State University, din SUA, care a efectuat un studiu pentru a examina direct fenomenul.

„Plagiatul este de mai multe tipuri. Am vrut să vedem dacă modelele de limbaj fac doar copy & paste sau recurg la forme mai sofisticate de plagiat fără să își dea seama”, a spus Dongwon Lee, profesor de științe și tehnologie a informației la Penn State.

Cercetătorii s-au concentrat pe identificarea a trei forme de plagiat: verbatim, sau copierea textului cuvânt cu cuvânt; parafrazarea, adică reformularea și restructurarea conținutului fără a cita sursa originală; și plagiatul ideii, sau folosirea ideii principale dintr-un text fără o citare corespunzătoare.

Oare generatoarele de text plagiază?

Cercetătorii au construit un algoritm pentru detectarea automată a plagiatului și l-au testat pe GPT-2 al OpenAI, deoarece datele de antrenament ale modelului de limbă sunt disponibile online, permițându-le cercetătorilor să compare textele generate de chatbot cu cele 8 milioane de documente utilizate pentru pre-antrenare.

Oamenii de știință au folosit 210.000 de texte generate pentru a vedea dacă generatoarele de text plagiază, testând modele lingvistice pre-instruite, dar și modele lingvistice ajustate (modele instruite în detaliu pentru a se concentra pe anumite domenii tematice).

În acest caz, echipa a ajustat trei modele lingvistice pentru a se concentra pe documente științifice, pe articole academice legate de COVID-19 și pe înregistrările de brevete. Oamenii de știință au folosit un motor de căutare open-source pentru a selecta primele 10 documente de instruire cele mai asemănătoare cu fiecare text generat și au modificat un algoritm de aliniere a textului existent pentru a detecta mai bine cazurile de plagiat verbatim, de parafrazare și de plagiat de idei.

Descoperirile pot avea implicații grave

Echipa a descoperit că generatoarele de text plagiază folosind toate cele trei tipuri de plagiat și că, cu cât setul de date și parametrii utilizați pentru a antrena modelul sunt mai mari, cu atât plagiatul a apărut mai des.

Cercetătorii au mai remarcat și că modelele de limbaj ajustate au redus plagiatul verbatim, dar au crescut cazurile de parafrazare și de plagiat de idei. În plus, oamenii de știință au identificat cazuri în care modelul lingvistic a expus informații private ale indivizilor prin toate cele trei forme de plagiat, notează TechXplore.

Cercetătorii își vor prezenta concluziile la ACM Web Conference din 2023, care are loc în perioada 30 aprilie-4 mai în Austin, Texas.

„Oamenii urmăresc modele lingvistice mari, deoarece cu cât modelul devine mai mare, abilitățile de generare cresc”, spune Jooyoung Lee, doctorandă la Colegiul de Științe și Tehnologie a Informației din cadrul Penn State și autoare principală a studiului.

„În același timp, ei pun în pericol originalitatea și creativitatea conținutului din corpusul de instruire. Aceasta este o constatare importantă”, a subliniat ea.

Chatboții ar trebui folosiți cu o mai mare atenție

Studiul evidențiază nevoia de mai multe cercetări privind generatoarele de text și întrebările etice și filosofice pe care acestea le ridică, spun cercetătorii.

„Chiar dacă rezultatele pot fi atrăgătoare, iar modelele lingvistice pot fi distractiv de utilizat și par productive pentru anumite sarcini, nu înseamnă că sunt practice”, a spus Thai Le, profesor asistent de informatică și știința informației la Universitatea din Mississippi care a început să lucreze la proiect ca doctorand la Penn State.

„În practică, trebuie să avem grijă de problemele etice aduse de generatoarele de text și de abordarea drepturilor de autor”, a continuat el.

Faptul că generatoarele de text plagiază nu este surprinzător

Deși rezultatele studiului se aplică doar pentru GPT-2, procesul automat de detectare a plagiatului pe care l-au creat cercetătorii poate fi aplicat și pe modelele de limbaj mai noi, cum ar fi ChatGPT, pentru a determina dacă și cât de des plagiază aceste modele conținutul de instruire. Testarea pentru plagiat, totuși, depinde de dezvoltatorii care fac datele de instruire accesibile pentru public, au spus cercetătorii.

Studiul actual îi poate ajuta pe cercetătorii AI să construiască modele de limbaj mai robuste, fiabile și responsabile în viitor, spun cercetătorii. Deocamdată, aceștia îndeamnă persoanele să fie precaute atunci când folosesc generatoare de text.

Faptul că aceste modele de limbaj plagiază nu este neobișnuit, spune Dongwon Lee. „Dezvoltatorii au învățat generatoarele de text să imite scrierile umane fără să le învețe în mod corespunzător să nu plagieze. E timpul să le învățăm să citeze sursele, dar mai este mult de lucru”, a cocluzionat profesorul.

Vă recomandăm să citiți și:

Google a anunțat că lucrează la competitorul lui ChatGPT, un chatbot numit „Bard”

Prima „mină” de Bitcoin alimentată nuclear va începe operațiunile în acest an

Mănușa VR aduce un simț mai realist al atingerii în metavers

Microsoft a creat dispozitivul care îți poate clona vocea după doar trei secunde de audio

Ștefan Trepăduș
Ștefan Trepăduș
Ștefan Trepăduș este blogger începând cu anul 2009, având experiență și în domeniile publicitate și jurnalism. Este pasionat de marketing și de tehnologie, dar cel mai mult îi place să știe lucruri, motiv pentru care a fost atras de Descopera.ro. citește mai mult
Urmărește DESCOPERĂ.ro pe
Google News și Google Showcase
Cele mai noi articole
Medicul-șef al SUA vrea avertismente privind riscul de cancer pe etichetele băuturilor alcoolice
Medicul-șef al SUA vrea avertismente privind riscul de cancer pe etichetele băuturilor alcoolice
Anul 2025 ar putea aduce lumii vaccinul împotriva cancerului
Anul 2025 ar putea aduce lumii vaccinul împotriva cancerului
Microsoft plănuiește să investească 80 miliarde de dolari pentru inteligența artificială în 2025
Microsoft plănuiește să investească 80 miliarde de dolari pentru inteligența artificială în 2025
Cum au transformat dronele războiul din Ucraina?
Cum au transformat dronele războiul din Ucraina?
Cum se transformă cumpărăturile de haine second-hand într-o experiență urată
Cum se transformă cumpărăturile de haine second-hand într-o experiență urată
Un studiu mondial pe 30.000 de oameni încearcă să afle ce ne face cu adevărat fericiți
Un studiu mondial pe 30.000 de oameni încearcă să afle ce ne face cu adevărat fericiți
Cum sunt afectate balenele de poluarea fonică?
Cum sunt afectate balenele de poluarea fonică?
William Phelps Eno, părintele siguranței rutiere
William Phelps Eno, părintele siguranței rutiere
Shah Rukh Khan, Regele Khan, al patrulea cel mai bogat actor din lume. Mai bogat în 2024 decât Tom Cruise și George Clooney
Shah Rukh Khan, Regele Khan, al patrulea cel mai bogat actor din lume. Mai bogat în 2024 decât Tom Cruise și George Clooney
Dennis Miller, între umor și politică. „Nu am credibilitate. Sunt comediant”
Dennis Miller, între umor și politică. „Nu am credibilitate. Sunt comediant”
Este sau nu bine să ne spălăm părul mai rar? Ce spun specialiștii
Este sau nu bine să ne spălăm părul mai rar? Ce spun specialiștii
Test în premieră mondială: Marea Britanie folosește AI pentru a depista pacienții cu diabet tip 2
Test în premieră mondială: Marea Britanie folosește AI pentru a depista pacienții cu diabet tip 2
Soarele a început anul 2025 cu o explozie de proporții! Cât de puternică a fost?
Soarele a început anul 2025 cu o explozie de proporții! Cât de puternică a fost?
Cât a fost de acord Apple să plătească în urma acuzațiilor că și-a ascultat pe ascuns utilizatorii?
Cât a fost de acord Apple să plătească în urma acuzațiilor că și-a ascultat pe ascuns utilizatorii?
Ce temperaturi aduce începutul de an? Prognoza actualizată de la ANM
Ce temperaturi aduce începutul de an? Prognoza actualizată de la ANM
Cea mai aglomerată zi din istoria Salvamont România
Cea mai aglomerată zi din istoria Salvamont România
Fiul unui ţăran analfabet, una dintre cele mai strălucite minţi ştiinţifice din toate timpurile
Fiul unui ţăran analfabet, una dintre cele mai strălucite minţi ştiinţifice din toate timpurile
Cât alcool este prea mult? Diferența dintre consumul excesiv și consumul intensiv
Cât alcool este prea mult? Diferența dintre consumul excesiv și consumul intensiv